APU(Accelerated Processing Unit)中文名字叫加速处理器,是
AMD“融聚未来”理念的产品,它第一次将
中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DX11游戏和最新应用的“加速运算”,大幅提升了电脑
运行效率。
平台
PS4的APU在性能上十分的强大,拥有1.84T/s浮点的GPU,以及176GB/s速度的8GB GDDR5
共享内存,在性能上可以媲美中高端的电脑独显。
APU将通用运算x86架构
CPU核心和可编程矢量处理引擎相融合,把CPU擅长的精密
标量运算与传统上只有GPU才具备的大规模并行
矢量运算结合起来。AMD APU设计综合了CPU和
GPU的优势,为软件开发者带来前所未有的灵活性,能够任意采用最适合的方式开发新的应用。AMD APU通过一个高性能总线,在单个硅片上把一个可编程x86 CPU和一个GPU的矢量处理架构连为一体,双方都能直接读取高速内存。AMD APU中还包含其他一些系统成分,比如
内存控制器、I/O控制器、专用
视频解码器、
显示输出和
总线接口等。AMD APU的魅力在于它们内含由标量和矢量硬件构成的全部处理能力。
所谓APU其实就是“加速处理器”(Accelerated Processing Unit)的英文缩写,是AMD推出的整合了x86/x64 CPU处理核心和GPU处理核心的新型“融聚”(Fusion)处理器,因此我们也能在网上找到“融聚加速处理器”的说法。AMD的APU平台分两种,一种是此前已经能在市面上买到的E系列入门级APU,一种是2011年才在
欧美市场正式上市的A系列主流级APU,A系列APU分A4/A6/A8/A10四大系列,就是我们一般讲的“Llano APU处理器”(拉诺APU处理器)。
因此,A系列的APU平台一般就称为Llano APU平台,当然,也有人针对APU整合的GPU,把Llano APU平台叫做“
Lynx平台”(
猞猁平台)。
AMD认为,CPU和GPU的融合将分为四步进行:
第一步是物理整合过程(Physical Integration),将CPU和GPU集成在同一块硅芯片上,并利用高带宽的
内部总线通讯,集成高性能的内存控制器,借助开放的
软件系统促成
异构计算。
第二步称为平台优化(Optimized Platforms),CPU和GPU之间互连接口进一步增强,并且统一进行双向
电源管理,GPU也支持高级
编程语言,这部分才是最关键的。
第三步是架构整合(Architectural Integration),实现统一的CPU/GPU
寻址空间、GPU使用可分页
系统内存、GPU硬件可调度、CPU/GPU/APU内存协同一致,这已在APU中初步完成。
第四步是架构和
系统整合(Architectural & OS Integration),主要特点包括GPU计算环境切换、GPU图形优先计算、独立显卡的
PCI-E协同、
任务并行运行实时整合等等,这些需要和
微软、ADOBE等
行业软件巨头不停的沟通交流。
APU正是
AMD公司对融合技术多年研究的成果,传统计算中的绝大部分
浮点操作都脱离CPU而转入擅长此道的GPU部分,GPU不再只是游戏工具,混合计算将大放光芒。在不远的未来,CPU和GPU的概念也会渐渐模糊起来,正如AMD所宣传的:The Future is Fusion。
架构
Trinity APU已在2012年10月2日正式发布,距
Llano APU发布一年又三个月,桌面平台代号为“Virgo”,
移动平台为“Comal”,新一代APU采用GlobalFoundries 32nm SOI HKMG工艺制造,拥有2-4个基于改进的
推土机架构CPU核心,
核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代Llano的CPU部分还是采用的较老的K10架构,融合的GPU部分也进行了大刀阔斧的改进,HD6000核心将被采用VLIW4(
Cayman核心的HD6900就是采用的这种架构)架构的新图形核心取代。直接竞争将在四月份推出的Intel Ivy Bridge架构处理器。
AMD在
处理器性能上继续落后,同时在图形性能上大幅领先。新一代AMD Ryzen APU2/12正式上市。
显示核心
Trinity APU基于增强版的
推土机架构“
打桩机”(Piledriver),最多双模块四核心,支持第三代
动态加速技术Turbo Core 3.0,同时整合VLIW4架构的
Radeon HD 7000系列图形核心。
性能预测
关于Trinity APU处理器的性能我们可以从AMD展示的移动版平台来一窥端倪。AMD在搭载了Trinity APU的笔记本上运行了DX11新作《
杀出重围3:人类革命》,为了方便了解,AMD还拿Intel的Sandy Bridge平台进行了对比(移动版Sandy Bridge均是内置HD Graphics 3000),在开启了开启DX11、形态
抗锯齿(
MLAA)、
纹理过滤、屏幕
环境光遮蔽(SSAO)、
景深(DOF)、后期处理、
曲面细分等特效和技术后,Trinity APU平台运行更为流畅,而Sandy Bridge平台则会时不时出现明显的
卡顿现象。 以
PCMark Vantage、
3DMark Vantage的成绩进行衡量,台式机版本的处理器性能、图形性能相比Llano APU均可提升最多30%,而笔记本版本则是最多25%、50%。 Trinity APU将针对
Windows 8操作系统进行专门优化,并引入新的视频处理能力,尤其是
视频压缩引擎“VCE”,对手直指Intel QuickSync转码引擎。
功耗续航
至于
电池续航能力,AMD
内部测试给出的答案是:Windows桌面空闲待机12小时28分钟、播放
DVD标清电影7小时15分钟、播放
BD蓝光高清电影4小时2分钟、运行
3DMark06测试3小时20分钟。
内存控制器
Trinity APU还改进了
DDR内存控制器,可以支持到
DDR3-2133内存,从Llano APU的测试来看,内存性能的提升直接影响到
图形显示部分的性能,从DDR3-1333内存升级为DDR3-1866后游戏性能最高可提升55%。也许是由于修改部分较多,Trinity APU采用了新的FM2封装接口,和FM1接口互不兼容。
未来展望
这一代的Llano APU由于缺货的原因并未发挥出它应有的能量——Fusion APU于2011年3月1日正式发布,主流的Llano APU于2011年6月1日正式发布,而在9月中下,隶属A系列APU的
A8-3850和
A6-3650还并未在卖场铺货,起码中关村卖场还未见到货。在Sandy Bridge早早完成铺货并开始大势宣传的情况下,Llano APU还有多少的
表现空间还不得而知,也许APU真正的能量在Trinity APU身上才能爆发出来。 加强了整数运算性能的全新推土机架构处理核心和更侧重
通用计算的全新VLIW4架构图形核心将使新一代Trinity APU具有更强的诱惑力,AMD首先提出的融聚概念的威力也将在那时候宣泄出来。
架构解析
APU与融合
不同于
推土机,Llano APU并没有使用全新的内核架构,甚至不像
Brazos APU平台那样至少处理器部分是新的“山猫”(Bobcat)架构,说白了主要就是K10处理器、DX11显卡(以及
北桥芯片)的合体,但显然也不是
1+1=2那么简单。Llano APU面临的问题不仅仅是要避免1+1<2,还要争取做到1+1>2。
- CPU、GPU性能综合:同时提供最好的CPU、GPU性能。
- 独立显卡级别的GPU体验:完整的DX11和功能集;拖拽
转码和
Aero效果等
Windows 7体验。
- 独有双显卡技术:配合AMD Radeon独立显卡提供额外性能。
- 下一代视频加速:也就是
UVD3引擎,创新的显示和画质功能,更高带宽。
- 行业和开放标准计算API支持:主要是
OpenCL、
DirectCompute,同时数据
传输延迟更低。
- 3D立体:支持HD3D,包括蓝光3D、DisplayPort 1.1(不及独立显卡的
DP 1.2)、
HDMI 1.4a。
可以看出,六个目标中有五个半是关于GPU的,涉及CPU的只有半个,Llano APU的关注重点也就不言而喻了,也与AMD VISION这样的平台名字相符。
Llano APU芯片采用GlobalFoundries 32nm HKMG工艺制造,又分为两种版本,其一是完整版本,集成14.5亿个
晶体管,核心面积228
平方毫米,又称为Big Llano或者Llano 1;其二是精简版本,集成7.58亿个晶体管,核心面积暂时不详,又称为Small Llano或者Llano 2。二者都采用了新的micro PGA封装接口Socket FS1,772针无顶盖,
引脚间距1.2192毫米,
芯片尺寸35×35=1225平方毫米。
从各方面看,首批发布的Llano APU都是采用了第一个完整版本,双核版本也是由四核屏蔽而来的,因此
热设计功耗同样较高。不知道何时才能看到原生的双核版本,但是AMD透露说会在近期推出不需要风扇散热的
低功耗型号,想来就是了。
和之前的Brazos APU类似,Llano APU也在单独一颗硅片上集成了以下众多模块:
x86处理器核心、
二级缓存、
DDR3内存控制器、图形
SIMD阵列(也就是GPU)、
显示控制器、UVD解码引擎、
PCI-E控制器。从下边这两张图上你就可以看出各个模块的分布位置和相对大小。
Llano APU内集成了如此众多的
功能模块,如何确保它们之间的高速互连、以便让整体随时保持在最佳状态、避免任何潜在的瓶颈,这无疑是APU设计过程中最关键的一点,也是获得1+1>2效果的基本前提。AMD在这方面显然是下足了功夫,比如特意设计了全新的Fusion Compute Link(Fusion计算连接)来将
北桥模块、GPU、
IO输入输出串联在一起,允许GPU访问一致性缓存/内存,同时在GPU和北桥之间还搭建了Radeon Memory Bus(
显存的GPU通过高速带宽去访问
系统内存。
说到底,APU并不是简简单单地把CPU、GPU整合到一块硅片上就完事了,不然也不会花费AMD三年多的时间,反复修改设计才最终
修成正果。
CPU与Turbo Core
Llano APU中的处理器部分来源于Stars架构,也就是俗称的K10架构,与
Phenom Ⅱ/Athlon Ⅱ系列同宗同源,在移动平台上更确切地说相当于此前的Phenom Ⅱ Mobile系列,自带128-bit
浮点单元、
一级缓存(每核心64KB+64KB)、二级缓存(每核心1MB),但没有
三级缓存。
当然一切都不是完全照搬而来的。除了
制造工艺从
45nm进步到32nm,从而更有效地控制晶体管
集成度、核心面积、频率和功耗,支持
C6电源状态,还在细节上进行了大量优化,包括更大容量的二级缓存、改进的硬件预取、更大的窗口尺寸、硬件
分割器、支持第二代Turbo Core智能超频技术等等,最终将IPC(每
时钟周期指令数)提升了6%以上。
这里特别需要着重介绍的就是Turbo Core,官方中文名:“智能超频”。该技术最早出现于六核心的Phenom Ⅱ X6系列上,如今已经进化到第二代,支持从推土机到APU的全
系列产品,不过截至2011年基本还没有
软件工具能够实时监测Turbo Core的动态频率,只有
AIDA64附带的
CPUID还凑合。
我们知道,处理器在不同负载下的实际功耗差别很大,而且都距离最大热设计功耗还有一定的空间,另一方面
多核心处理器在不同应用环境中活跃的
核心数量也有所不同,这都造成了处理器资源无法得到充分利用,形成了浪费。
解决方案就是由功耗
监视器实时测量每个处理器核心的功耗,由北桥汇总,然后统一报告给P-State电源状态管理器,再由其根据需要让处理器的各个核心运行在适当的电源状态下,或者降速或者提速,特别是提速的时候能短时间超过原始频率,并且保证始终不超过整体热设计功耗。
AMD Turbo Core的创新之处在于使用了数字式高级
电源管理(
APM)模块,相比于类似技术中的模拟温度和电流监测方法,能够提供高灵敏度的电源管理,
精确度更高,具备完全
可重复性。
更关键的是,Turbo Core会自动协调CPU、GPU,让需要更多资源的能够获得更高速度。在GPU闲置的时候,它就会大幅降低其频率,去尽可能高地提升
CPU频率。
如果碰到了较为繁重的图形或者视频任务,GPU就会获得更高优先级,CPU退而求其次。
如果GPU执行的是DVD视频播放等轻负载任务,那么留给CPU的加速空间就要在整体热设计功耗中排除掉GPU的那一部分。
极端情况下,如果CPU、GPU都面临繁忙的任务,或者需要携手进行OpenCL
APP加速计算,此时CPU、GPU就会同时得到加速,甚至会在短时间内超过热设计功耗限制,然后再根据情况去降低CPU的频率和功耗(GPU不变),保证核心温度不致于过高。这一点倒是和Sandy Bridge上的第二代
Turbo Boost有些相似。
内存支持上,Llano APU移动版支持双通道DDR3 SO-DIMM,每通道一条
内存条,也就是总共只能插两条内存,容量最大32GB。频率和电压方面标准版DDR3最高1600MHz,电压1.5V,低压版DDR3L最高1333MHz,电压1.35V,带宽最高25.6GB/s。
Llano APU的桌面版则支持双通道DDR3
DIMM,每通道两条内存条,总共可以插入四条内存,容量最大64GB,支持1.35V DDR3-1333、1.5V DDR3-1866,带宽最高29.8GB/s。
由于CPU、GPU“同处一室”,难免会争夺资源(事实上APU对
内存带宽的
依赖性确实非常强),为此AMD将GPU与
内存控制器之间的带宽提高到了上代平台的四倍,且高于内存控制器与内存之间的带宽。
DX11 GPU
这部分是Llano APU的重点。它的
开发代号为“Sumo”(相扑),源于第一代DX11家族中Radeon HD 5600/5500系列的Redwood核心,最多400个
流处理器、20个纹理单元、2个渲染后端、8个
ROP单元,显存
位宽128-bit。遗憾的是,独立的
GDDR5显存是没有了,而且也不像880G主板那样有
板载硬显存,只能去共享系统
DDR3内存。
除了继承原有的TeraScale 2统一处理架构,以及完全的DX11、
OpenGL 4.1、各种抗锯齿和
各向异性过滤(包括形态抗锯齿MLAA)、APP
并行计算加速技术之外,Sumo核心还增加了来自Radeon HD 6000系列家族的UVD3视频解码引擎、功率门控(深度电源管理与节能),重新设计了通往北桥的显存接口,制造工艺也同步采用了最新的GlobalFoundries 32nm。
Sumo核心自然还是VLIW5 5D式流处理器架构,
单精度浮点计算性能最高480GFlops,整数计算性能最高480Gints,都是每秒钟4800亿次。
作为Fusion APU的
竞争对手,Intel Sandy Bridge所集成的HD Graphics 3000/2000虽然比前一代也有了巨大的进步,但是在
图形技术、视频技术方面依然落后得很多,尤其是OpenCL并行计算仅有处理器支持,图形核心并不支持,无法协同加速。
Llano APU的处理器、图形核心部分都支持
AMD APP加速
并行处理技术,尤其是OpenCL标准规范,为此AMD将不断更新APP
SDK开发包,提供更好性能和更多功能。按照规划,APP SDK 2.5版将于八月份推出,主要更新有Windows 7/Linux
性能优化、多GPU支持(Windows 7)、
快速傅立叶变换(根基数5)、UVD3/MPEG2解码、PowerExpress独显
集显切换支持、GPU
调试器(Windows 7)等等。
值得一提的是,Llano APU正式支持的OpenCL规范版本已更新至1.2。
随着
芯片集成度的提高,无论桌面还是移动平台的构成都越来越简单,传统的处理器加
南北桥双的三片架构已经消失,取而代之的是处理器加互连芯片的双芯片架构。原来由北桥负责的大部分功能都已经转移到处理器内部,包括图形核心,所谓的芯片组也就剩下了一颗充当
南桥功能的小芯片。
Llano APU处理器搭配的Hudson系列芯片组同样是
单芯片设计,在移动平台上有A70M、A60M两款型号,代号分别为Hudson-M3、Hudson-M2,通过UMI总线(
PCI-E 1.0 x4+DP)与处理器互连。和之前用于Brazos APU平台的Hudson-M1 A50M是同门师兄弟。
A70M/A60M芯片组采用65nm工艺制造,605球脚FC BGA封装,芯片尺寸23×23=529平方毫米,典型热设计功耗2.7-4.7W。
两款芯片组均支持六个
SATA 6Gbps存储接口并支持
RAID 0/1阵列方式,可提供四条PCI-E 2.0 x1连接通道,集成
时钟发生器、
消费级红外接收器、风扇控制、电压感应、DAC(支持
VGA)等等,主要区别则在于
USB接口:A70M原生支持四个
USB 3.0、十个
USB 2.0和两个内部USB 1.1,A60M则没有USB 3.0,而是改成了十四个USB 2.0。
这套平台上还有个可选的替补角色,那就是Vancouver Radeon HD 6000M系列独立显卡,通过
PCI-E x16通道与处理器相连。它不但能为笔记本带来独显性能,还支持与Llano APU集成的图形核心组成双显切换、加速系统。
最后再说一下电源管理与
节能技术,这方面同样很丰富,包括32nm HKMG新工艺、AMD Turbo Core 2.0动态调速技术、
系统管理模式(SMM)、ACIP兼容、多重性能状态(P-states)、多重节能状态(C-states)、S0/S3/S4/S5
休眠状态、每个核心功率门控(CC6)、PCI-E核心功率门控、Radeon流处理器核心与UVD3视频引擎功率门控。
功率门控(Power Gating)尤为值得一提。它是AMD 45nm时代非常欠缺的技术,如今终于得到了彻底的支持。相比于
时钟门控(Clock Gating),它不仅可以实时调节各个模块的
运行频率、电压,还能在不需要的时候彻底关闭,实现部分零功耗。换句话说,Llano APU的每个处理器核心、每个PCI-E控制器、流处理器阵列、UVD3引擎都是可以完全关闭的,Turbo Core技术也是因此更上一层楼。
以上种种,都属于AMD AllDay全天计算技术。按照AMD给出的数据,ⅥSION 2010移动平台的
待机时间最长为6个半小时,迎来了APU的ⅥSION 2011则可长达10个小时;同时相比竞争对手,待机
续航时间长一个半多小时,满载续航时间也要长一个小时。
技术参数
桌面级
Richland平台
Richland APU上的动态调频技术为“Hybrid Boost”,芯片内部集成了更多的
温度传感器,并调整了Turbo加速的算法使之更加智能化。以前需要加速的时候往往是CPU和GPU同时加速,但是这种情况并不多见,现在的算法则能保证那个部分需要更强性能就加速哪个。
Virgo平台
移动平台为“Comal”,新一代APU采用GlobalFoundries 32nm SOI HKMG工艺制造,拥有2-4个基于改进的推土机架构CPU核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代Llano的CPU部分还是采用的较老的K10架构,融合的GPU部分也进行了大刀阔斧的改进,HD6000核心将被采用VLIW4(Cayman核心的HD6900就是采用的这种架构)架构的新图形核心取代。
Trinity APU于2012年5月15日正式发布,它的主要任务是接替Llano成为新一代面向主流和高性能移动领域的融合处理器。它和Llano APU一样最多拥有四个物理核心,不过核心架构从K10升级至Piledriver(打桩机,也就是第二代
推土机),融合单显部分则最多拥有384个DX 11 Radeon
流处理器(升级至HD 6900系列的VLIW 4架构),所搭配的单芯片依然支持
SATA 6Gbps、
USB 3.0、
PCI-E 2.0等规范,至于双显
混合交火功能也是继续支持的。
与上一代AMD APU相比,新一代的打桩机内核Trinity在性能上有着飞跃的提升,他的每一个运算模块是由两颗核心组成,每个模块搭配2MB的缓存,打桩机提供了IPC improvement、leakage reduction、CAC reduction和frequency uplift等增强功能,这些有别于Llano的设计让Trinity在性能上的发挥更为强大,性能提升将会非常明显。在以往公布的APU机构途中,
内存控制器、核心单元
吞吐量和信息处理能力一直是重要提升项目,因为融合的原因,这些单项功能的提升将会大大提升AMD Trinity的实际应用性能。
Lynx平台
CPU支持:
MMX,
SSE,
SSE2,
SSE3,
SSE4a,Enhanced
3DNow!,NX bit,AMD64,Cool'n'Quiet,
AMD-V,Turbo Core
CPU部分代号Husky,基于改进版K10.5架构
GPU部分基于Redwood核心
带K字的型号开放倍频
全型号通用参数:
步进:B0
注:GPU核心配置格式为:
流处理器数量,纹理单元数量,光栅单元数量
移动版
Comal平台
新一代APU采用GlobalFoundries 32nm SOI HKMG工艺制造,拥有2-4个基于改进的推土机架构CPU核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代Llano的CPU部分还是采用的较老的K10架构,融合的GPU部分也进行了大刀阔斧的改进.
CPU支持:SSE,SSE2,SSE3,SSSE3,SSE4a,NX bit,AMD64,
PowerNow!,AMD-V.
Socket FT1接口
步进:B0,C0
注:GPU核心配置格式为:流处理器数量,纹理单元数量,光栅单元数量
Sabine平台
CPU支持:MMX,SSE,SSE2,SSE3,SSE4a,Enhanced 3DNow!,NX bit,AMD64,Cool'n'Quiet,AMD-V,Turbo Core
CPU部分代号Husky,基于改进版K10.5架构
GPU部分基于Redwood核心
全型号通用参数:
核心面积:228平方毫米
步进:B0
接口:Socket FS1
UMI总线:2.5GT/s
注:GPU核心配置格式为:流处理器数量,纹理单元数量,光栅单元数量